研习社 | 学员作业:基于多元数据的武汉市主城区高端酒店综合评价分析
基于多元数据的武汉市
主城区高端酒店综合评价分析
大家好,我叫王娟,是华中师范大学人文地理专业的一名博士生,研究方向为城市旅游与交通。加入城市数据研习社这个学习社群已经有一年时间了,这一年忙碌而充实,从最开始对人文地理专业一知半解,到接触大数据和GIS并找到自己的研究方向,原来那种迷茫与焦虑也慢慢褪去。感谢互联网教育,让我们可以更高效地学习,感谢国匠城,提供了这么好的学习社群。此次作业在小智老师的指导下逐渐成型,不足之处望大家批评指正。
1 研究概述
1.1 研究背景
高端酒店不仅是城市旅游接待能力和接待水准的首要衡量标准,也能很好反映当地经济发展的态势与市场前景,更对提升城市形象有显著意义。以往研究酒店布局采用的数据主要为行业统计数据,数据获取周期长、难度大且时效性不好。随着数据时代的到来,开源互联网为研究者提供了很多新的数据来源:一方面,互联网消费平台产生了大量结构化的信息;另一方面,消费者在互联网留下了大量非结构化的评价信息。如何获取并利用这些信息,更加高效合理的开展城市研究,是地理学、城市规划学、旅游规划学等专业共同关注的课题。鉴于此,本研究基于点评数据、城市实时交通数据等多元数据,尝试构建高端酒店的评价指标体系,并以武汉中心城区为例,探寻高端酒店的空间分布格局及风格特点。
1.2 研究对象与范围
研究对象为研究范围内的234家高端酒店,该处的高端酒店来源于大众点评网对于酒店的分类。在大众点评网中,酒店分为五星级/豪华型、四星级/高档型、三星级/舒适型、经济型、精品酒店、精品酒店等9个类别,研究选择普遍认为比较高端的五星级/豪华型、四星级/高档型作为研究对象,为了方便描述,将两类酒店统称为“高端酒店”。
研究范围为武汉中心城区,包括洪山区、硚口区、汉阳区、武昌区、青山区、江汉区和江岸区,以及中心城区范围外的部分地区,如图1。
图1:研究范围图
1.3 数据来源与处理
本研究数据主要包括网络点评数据、城市实时交通数据以及城市POI数据。网络点评数据由火车头软件爬取而来,包括每家酒店的起售价格、点评数、5星好评数等属性数据以及房间评分、设施评分、环境评分等评分数据;城市实时交通数据和城市POI数据由城市数据研习社提供,前者包括各酒店距离天河机场、武汉火车站、武昌火车站、汉口火车站的耗时,后者包含购物中心、大型超市以及便利店等兴趣点信息。
2 评价指标体系与方法
进行高端酒店综合评价,首先要建立一套能够反映酒店各方面表现的评价体系,评价体系的建立包括评价因子选取、因子权重确定以及计算公式三个步骤。
2.1 评价因子
通过参考相关文献的评价因子,并综合考虑数据的可获得性,选取了酒店价格、酒店人气、酒店区位、酒店满意度、酒店周边商业服务5个一级因子,5个一级因子下面总共包括 15个二级评价因子。
图2:评价因子选取
2.1.1 酒店价格
酒店价格由大众点评网爬取而来。酒店价格通常是供给方和需求方博弈的结果,很大程度上能反映酒店的档次和消费水平,即价格越高,酒店档次越高。由于酒店不同房型价格不同,研究中使用的价格为酒店的起售价格。
图3:酒店价格在大众点评网上的位置
2.1.2 酒店点评数
酒店点评数是大众点评网上顾客对该酒店的全部点评数,反映了酒店的人气,即点评数越多表示入住该酒店的顾客越多,酒店人气越高。
图4:酒店点评数在大众点评网上的位置
2.1.3 酒店区位
酒店区位由3个二级因子构成,包括距离交通门户平均耗时、2km内最近地铁站距离、2km内热门景点个数。其中:
距离交通门户平均耗时为酒店距离机场、火车站的平均耗时。该数据是由研习社提供的城市交通实时数据计算得到,具体实现过程为首先生成天河机场、武汉站、武昌站、汉口站四大交通门户的等时圈,再栅格转面,然后与武汉高端酒店相交,得到各酒店距离各交通门户的耗时,加总平均后得到平均耗时,平均耗时越少表示酒店区位越好。
“2km内最近地铁站距离”由大众点评网爬取而来,表示酒店附近最近的地铁站到酒店的距离,例如距离香格里拉大酒店最近的地铁站是大智路地铁站,距离为1.7km。距离越近,表示酒店区位越好。
“2km内热门景点个数”同样是由大众点评网爬取而来。个数越多表示该酒店区位越好,这里的热门景点包括旅游景点、城市公园、购物商圈等内容。
图5:各酒店距离汉口火车站的距离计算示意图
图6:香格里拉大酒店2km内最近地铁站距离、热门景点在大众点评网上的位置
2.1.4 酒店满意度
酒店满意度由5星好评占总评论数比例、房间评分、设施评分、环境评分、位置评分、服务评分和卫生评分七个二级因子组成,均爬取于大众点评网。其中,5星好评占总评论数比例为5星好评数与全部点评数的比值,能够从整体上反映消费者满意度,比值越高,满意度越高; 大众点评上每个酒店的整体界面中并没有关于位置、服务、卫生等二级因子的总体评分,但每个用户的点评中包含这些信息,因此,爬取每条评论中的相关信息,并进行分类整理,求得均值,即某个酒店在各个方面的相关得分,得分越高,代表顾客对酒店的满意度越高。
图7:房间评分、服务评分、位置评分等因子在大众点评网的位置
2.1.5 酒店周边商业服务
周边商业服务包括1km内购物中心/商业街数量、1km内大型超市数量、500m内品牌便利店数量。3个二级因子反映了酒店周边商业设施的配置状况,数量越多表示酒店周边商业服务水平越高。在具体处理中,首先整理武汉POI数据,筛选出中高端购物中心/商业街、大型超市和品牌便利店并导入GIS,然后对酒店进行半径为500m和1000m的缓冲区分析,进而将缓冲区与POI点数据相交,统计出500m和1000m内的设施个数。
图8:购物中心/商业街的空间分布图
图9:大型超市的空间分布图
图10:品牌便利店的空间分布图
2.2 因子权重
使用YAAHP软件,对各指标重要性进行两两比较,确定权重,具体如下:
图11:因子权重一览图
2.3 计算公式
根据以下公式对各指标进行无量纲化处理,其中X3-1 (距离交通门户平均耗时)、X3-2 (2km内最近地铁站距离)为逆向指标,适用公式②,其他指标均为正向指标,适用公式①。经此计算,各项指标均为数值越大越好,可以直接按照公式③叠加计算。
式中,V表示高端酒店综合评价得分,Xi表示该酒店的正向指标得分,Pi表示该酒店正向指标的权重,Yi表示该酒店逆向指标得分,qi表示该酒店逆向指标的权重。
3 结果分析
3.1 武汉市主城区高端酒店综合得分
通过叠加计算,得到武汉市主城区高端酒店的综合得分,最高分为86.3分,最低分为18.6,均值46.0分,中位数46.8,标准差为10.7。为了更为直观地了解得分分布情况,以5分为一个分数段对得分进行整理,可得到武汉高端酒店综合得分统计图(图12)。从图12可以看出,武汉主城区高端酒店得分较为集中,呈中间大两头小的橄榄形。234家酒店中,共有224家的得分落在30分—65分这一区段,占到总数的95%;其中 50-60分数段有90家,占到总数的40%。得分高于70分的仅有6家,低于30分的仅有4家。
图12:武汉高端酒店综合得分统计图
为进一步把握武汉主城区高端酒店的综合得分情况,需要对总体得分进行分级。利用ArcGIS中的自然间断点分级法,可将武汉高端酒店由高到低划分成5个等级(图13)。其中,第一等级包括20家酒店,第二等级64家,第三等级63家,第四等级52家,第五等级35家。
图13:武汉高端酒店总体分级图
从5个一级指标的绝对得分趋势来看(图14),从第一名至最后一名,酒店价格、人气和周边商业服务的下降趋势更为明显,是拉开酒店之间差距的主要因素,而酒店区位和满意度的曲线则较为平缓,是高端酒店的共同特征,即一般而言,高端酒店地理位置都比较优越,服务水平也比较有保障。
图14:武汉高端酒店综合得分趋势图
从所有酒店5个一级指标的相对比例来看(图15),从第一名至最后一名,5个一级指标之间的差距逐步拉大,例如第1名(武汉万达瑞华酒店),5个一级指标的相互比例为:酒店价格(25.1%)、酒店人气(12.1%) 、酒店区位(28.2%)、酒店满意度(33.5%)、酒店周边商业服务(1.1%),而第100名(武汉华美达安可酒店),5个相对应因子的相对比例变化为15.3%、0.5%、35.3%、47.7%、1.2%,第200名(武汉高铁凯瑞国际酒店),则进一步拉大为11.7%、2.1%、18.4%、67.8%和0.0%(表1)。说明好的酒店各个方面都比较优秀,而较差的酒店在某些方面明显不足,但在某些方面又有可取之处。总体来看,酒店排名越靠后,其人气、价格、区位、周边商业服务所占比例越低,而满意度所占比例越高,即越来越依赖满意度这个指标来补充其他方面的不足。
表1:酒店一级指标相对比例(部分酒店)
图15:武汉高端酒店综合得分相对趋势图
从武汉三镇的分布格局来看,武昌占据高端酒店的半壁江山,汉口占到34%,汉阳为14%。这与通常的认知似乎存在出入,一般认为,在武汉三镇的功能格局中,汉口商务功能集中,因而高端酒店也应该更加集中,而武昌以教育功能为主,似乎不应该分布这么多高端酒店。但从高端酒店的数量来看,武昌的高端酒店数量却比汉口多,并且是历来就比汉口多。这是因为武昌高端酒店的起步较早,发展也更为迅速,甚至在1957年就已经有一家五星级酒店选址在武昌东湖胡畔。
图16:武汉三镇高端酒店数量历史变化图
从行政区划来看,洪山区、武昌区高端酒店数遥遥领先于其他行政区,且第一等级、第二等级高端酒店的数量也比其他行政区更多,这一方面归功于两区政治、经济等的发展,另一方面也因为这两个区地域面积较大。
图17:武汉各行政区高端酒店数量统计图
3.2 武汉市主城区高端酒店空间分布分析
为了更全面把握武汉主城区高端酒店的空间分布格局,需要更为精细的分析。使用GIS软件的核密度分析工具,以综合得分为population字段,搜索半径设置为1km进行分析,得到武汉主城区高端酒店综合得分的空间分布图(图18)。
从图中可以看出,高端酒店主要集中在二环线内,呈现点状聚集与线性延伸并存的空间格局。形成了汉口火车站片区、循礼门——航空路片区、楚河汉界——洪山广场片区、光谷广场片区四大高端酒店高值区域;同时沿着中北路——中南路、解放大道、武珞路形成三条高端酒店高值轴线。
图18 武汉高端综合得分空间分布图
具体到各等级高端酒店,不同等级酒店在空间上具有不同的分布格局。第一等级酒店大多集中于二环线内,从三镇格局来看,主要坐落于汉口和武昌的中心区域;从行政区划来看,武昌区(7家)和洪山区(6家)占到第一等级20家酒店中的一半以上,其他7家位于江岸区(3家)、硚口区(2家),江汉区和汉阳区(各1家)。得分较高的酒店主要聚集在楚河汉街商圈和徐东——岳家嘴商圈,这里聚集了万达瑞华、万达嘉华、汇廷精选、玉丰国际、梨园大酒店在内的高分酒店(图19)。
图19 第一等级酒店空间分布图
第二等级酒店在空间上大多集中于二环线内及其外围区域,分布较第一等级酒店更广,从中心向城市外围扩散的趋势较为明显(图20)。从三镇格局来看,武昌和汉口仍然聚集了绝大多数酒店,并沿多条主干道形成了若干酒店聚集区,主干道包括汉口解放大道一线,武昌中北路和武珞路一线等。酒店集聚区包括武昌洪山广场——中南路商圈、街道口商圈、光谷广场商圈,汉口的武胜路商圈、江汉路商圈以及汉口火车站——常青花园一带。
图20 第二等级酒店空间分布图
第三等级酒店在空间上大多集中于三环线内,其中二环线内及其外围仍是较为集中的区域(图21)。形成了武昌的武珞路一线、汉口的解放大道和建设大道沿线三条轴线。同时,形成了武昌火车站——中南路商圈、广埠屯——卓刀泉商圈,汉口的古田路、硚口路、香港路、汉口火车站以及武汉天地等聚集区。
图21 第三等级酒店空间分布图
第四等级酒店在空间上大多集中于三环线和二环线沿线,向城市边缘分散布局的趋势较为明显。
图22 第四等级酒店空间分布图
第五等级酒店基本位于三环线以外,在武昌金融港、汉口吴家山以及汉阳的沌口开发区有一定聚集。
图23 第五等级酒店空间分布图
3.3 武汉市主城区高端酒店特色分析
在对武汉市主城区高端酒店进行整体分析的基础上,对各酒店的特色和顾客对于酒店的评价进行重点分析,帮助我们进一步了解武汉市的高端酒店。
3.3.1 酒店特色分析
不同酒店的特色不尽相同,有些酒店在区位方面具有优势,有些酒店则在服务方面表现更为突出,这些特色是酒店参与市场竞争最有利的武器。为了提炼不同酒店的特色需要进一步分析各酒店在不同指标上的表现,由于研究酒店较多,此处仅以第一等级酒店中的20个酒店为例进行分析。根据这20个酒店在各个指标上的表现,可以将这些酒店分为4类:均衡优势型、价格—区位优势型、区位—满意度优势型、以及价格—满意度优势型。例如万达瑞华、香格里拉等酒店在区位、规模、人气、设施和管理等多个方面都有极佳表现,归为均衡优势型;光明万丽、梨园大酒店等酒店在价格和区位两方面表现较为突出,在其他指标方面则表现平平,归为价格—区位优势型。
图24 酒店特色归类分析
3.3.2 酒店顾客评价分析
大众点评网上公布有顾客对酒店住宿的评语,这些评语代表了顾客在酒店住宿的满意程度,也是影响其他消费者是否选择一个酒店的重要因素,因此,有必要对这些评价的词频、词意进行分析。在具体实现上,将每个酒店的评论全部爬取下来,使用图悦软件进行分词,进而挑选评论性词汇在Tagul词云在线网站上生成某一酒店的评论词云图,结合玫瑰图,能够对该酒店有更加全面和清晰的认识。例如万达瑞华酒店,关键词为服务好、高大上、交通方便、七星等,反映的是其在管理、设施、区位、规模等方面的情况。
图25 酒店评语分析
4 研究结论
本研究基于网络点评数据,结合城市实时交通数据、城市静态POI数据,构建了高端酒店的评价体系,并以武汉中心城区为例,对高端酒店的综合排名及其空间分布格局进行了探索,得到一些有益的结论。
4.1 从总体上看,武汉高端酒店得分较为集中。5个指标中,酒店价格、人气和周边商业服务的下降趋势最为明显,是拉开酒店之间差距的主要因素,而酒店区位和满意度的曲线则较为平缓,是高端酒店的共同特征。随着排名的下降,酒店人气、价格、区位、周边商业服务所占比例逐步降低,而满意度所占比例逐步提高,即酒店排名越靠后越依赖满意度这个指标来补充其他方面的不足。
4.2 从武汉三镇的分布格局来看,武昌占据高端酒店的半壁江山,汉口占到34%,汉阳为14%。从行政区划来看,洪山区、武昌区高端酒店数遥遥领先于其他行政区,且第一等级、第二等级的数量也较其他行政区多,这一方面归功于两个区政治、经济等的发展,另一方面也由于这两个区地域面积较大。
4.3 从空间分布来看,总体上高端酒店集中于二环线内,呈现点状聚集与线性延伸并存的空间格局。形成了汉口火车站片区、循礼门——航空路片区、楚河汉界——洪山广场片区、光谷广场片区四大高端酒店高值区域;同时沿着中北路——中南路、解放大道、武珞路形成三条高端酒店高值轴线。
4.4 随着酒店等级的降低,酒店从城市中心向城市边缘扩散,基本呈圈层结构。得分较高的酒店相对集中于武昌中南路——中北路一线、武珞路一线,汉口解放大道一线和建设大道沿线。
5 参与学期计划的感想
这是我加入城市数据研习社“面向城市实践的数据能力增强计划”后参与的第二个专题练习。相比上次,自我感觉又进步了一个台阶,从爬取、清洗数据,到分析数据,再到可视化表达,过程虽然艰辛,但是在小智老师的指导下,也一一完成了。互联网时代是神奇的,生活中我们已经一刻不能离开网络,而在城市研究领域,完全孤立于互联网之外的研究也已经基本不存在了,能够将现实世界与互联网世界联系起来,并在二者之间自由穿梭的研究范式才是大势所趋。城市研究人员,无论年龄、专业、人生阶段,拥抱互联网时代,主动学习起来,才是正确的态度。作为一枚GIS小白、大数据小白,庆幸自己没有放弃治疗,更感谢互联网时代使我们能够做到互相素未谋面却获益良多。
王娟,已参加由国匠城和城市数据团共同举办的《面向规划实践的数据能力增强计划》,具备城市数据综合分析能力,特此颁发认证,以资鼓励。
证书查询网址:www.caup.net/cert
【优秀学员丨郭 翰】北京主城区人口聚集与街道拥堵分析
【优秀学员丨梁家俊】基于百度热力中山市中心城区结构分析
城市数据研习社
2016年8月,由国匠城与城市数据团联合成立的城市数据研习社,发起了面向城市规划行业的“千人计划”。 希望能够从规划师中首先招募1000人,组建城市数据学习社群,增强规划师的数据应用能力,提升整个行业的数据应用水平。在半年左右的时间内已有1000多位规划师加入研习社。研习社学员已覆盖国内外132所高校,114所设计院和103家其它企事业单位。
城市数据研习社咨询群:413942566
长按识别二维码,腾讯课堂
报名加入城市数据研习社